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摘 要 人 际 信任 渗透 在 社会 交互 的 各 个 方面 ， 是 促进 和 维持 合作 的 重要 基石 。 以 往 研 究 


者 借助 信任 博弈 范式 ， 主 要 探讨 了 人 际 信任 的 理论 模型 、 生 物 基 础 和 影响 


因素 等 方面 。 近 


年 来 ， 研 究 者 开始 将 计算 模型 应 用 于 信任 博弈 的 数据 分 析 中 ， 深 入 挖掘 人 际 信 任 行为 背后 
的 心理 机 制 ， 将 计算 模型 与 神经 影像 技术 结合 ， 加 深 对 信任 行为 背后 脑 机 制 的 理解 。 目 前 


这 一 科学 问题 ， 


将 计算 模型 应 用 于 信任 博弈 范式 中 的 研究 主要 针对 “信任 是 如 何 形成 的 ” 


未 来 要 进一步 发 展 计算 模型 方法 ， 结 合 非 侵 入 性 脑 刺 激 技术 ， 应 用 于 精神 疾病 人 群 中 ， 以 


深入 理解 正常 和 异常 信任 形成 的 心理 和 神经 机 制 。 


~ 
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1 引言 


信任 Ctrust) 是 经 济 以 及 社会 生活 中 的 一 种 润滑 剂 (Snijders & Keren, 2001)， 也 是 维系 
社会 关系 的 粘 合剂 (Wilson & Eckel, 2006)。 人 际 信 任 (interpersonal trust) 作为 最 复杂 的 社会 
技能 之 一 ， 在 社会 交互 中 起 着 重要 的 作用 (Fett et al., 2014) 。 尽 管 人 际 信任 的 概念 存在 不 同 


的 表述 ， 但 其 核心 是 指 人 们 基于 对 他 人 行为 的 积极 预期 (比如 在 可 能 合作 也 可 能 竞争 的 情 


况 下 ， 预 期 对 方 会 与 自己 合作 ) ， 愿 意 将 自己 处 于 风险 境遇 中 的 一 种 心理 


al., 2007; Rotter, 1967)。 从 定义 可 以 看 出 人 际 信任 的 关键 特征 是 : 对 他 人 意 


使 自己 陷入 风险 或 劣势 。 经 济 学 家 在 经 济 博弈 理论 的 框架 下 ， 将 人 际 信任 从 复杂 的 定义 背 

要 特征 ， 进 而 操作 成 信任 博 蛮 范式 (Trust Game, TG)。 该 
范式 被 广泛 地 应 用 到 人 际 信任 的 研究 中 。 既 往 研究 者 从 神经 递 质 、 激 素 等 分 子 层面 ， 决 策 
推理 等 认 知 层面 ， 以 及 脑 区 、 脑 网 络 等 脑 功能 层面 探究 了 人 际 信 任 的 生物 基础 ， 并 提出 了 
各 种 理论 模型 来 理解 人 际 信任 背后 的 心理 和 神经 机 制 (Erueger & Meyer-Lindenberg, 2019; 


景 中 抽 离 出 来 ， 并 保留 了 信任 的 重 
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状态 (Krueger et 


图 持 有 积极 预期 ; 


Riedl & Javor, 2012; Tzieropoulos, 2013; MRK, 叶 浩 生 , 2009; Mri 等 , 2020; 史 燕 伟 等 , 2015; 
张 宁 等 , 2011; TKR 等 , 2016)。 这 些 研究 对 于 理解 “人 们 为 什么 以 及 何 时 选择 信任 或 不 信 
任 ” 这 一 科学 问题 提供 了 答案 ( 张 蔚 等 , 2016)， 但 是 传统 的 研究 方法 并 不 能 回答 “信任 是 

成 的 ”这 一 科学 问题 。 重 复 信 任 博弈 范式 的 产生 以 及 计算 模型 研究 方法 的 应 用 ， 使 
得 回答 这 一 问题 成 为 可 能 。 

近年 来 ， 计 算 模 型 (computational modelling) 方 法 因 其 严谨 科学 的 量化 方式 ， 以 及 可 以 
揭示 行为 和 脑 活 动 背 后 隐藏 的 动态 心理 过 程 的 优势 ， 而 被 越 来 越 多 地 应 用 在 决策 领域 中 。 
这 为 加 深 理 解 行为 背后 的 心理 机 制 和 神经 基础 提供 了 一 种 新 的 思路 (Montague et al.,, 2012; 
Read Montague, 2018)。 同 时 ， 这 种 基于 数据 的 科学 量化 的 方式 不 仅 可 以 检验 模型 本 身 的 好 
坏 ， 也 可 以 通过 模型 比较 得 出 哪 种 模型 能 更 好 地 解释 和 预测 心理 现象 (Cheong et al., 2017)。 
其 中 ， 博 弈 范式 是 计算 模型 研究 中 常用 的 研究 范式 。 在 重复 博弈 中 ， 人 们 需要 推 岂 对 手 当 
时 的 心理 状态 ， 而 且 这 种 推断 具有 递归 性 (recursive)， 即 一 种 重复 循环 的 因果 关系 。 这 种 递 
归 性 正 是 许多 计算 模型 建立 的 核心 思想 ， 因 而 越 来 越 多 的 研究 将 计算 模型 应 用 在 包括 信任 
博弈 在 内 的 多 种 博弈 范式 中 ， 以 此 来 探讨 各 种 心理 现象 背后 的 内 在 机 制 (Ray et al., 2009)。 

本 文 首先 介绍 了 信任 博弈 范式 ， 然 后 介绍 了 计算 模型 的 概念 ， 围 绕 “ 信 任 是 如 何 形成 
的 ”这 一 科学 问题 介绍 了 计算 模型 在 人 际 信任 行为 学 研究 和 脑 功能 影像 学 研究 中 的 应 用 ， 
从 而 归纳 了 信任 形成 的 心理 和 神经 机 制 研究 进展 ， 最 后 针对 目前 研究 的 不 足 ， 为 进一步 探 
讨 信任 形成 机 制 提 供 了 新 的 思路 。 


2 单 次 和 重复 信任 博弈 
信任 博弈 是 研究 人 际 信任 的 最 常用 范式 。 在 经 典 信任 博弈 范式 中 (Kreps, 1990)， 由 两 
个 实验 参与 者 分 别 扮演 投资 者 (investon 和 被 信任 者 (trustee) 的 角色 。 博 弈 初始 ， 双 方 拥有 相 
QO 同 数额 的 金钱 。 首 先 由 投资 者 在 信任 〈 把 钱 全 部 交 给 对 方 ) 和 不 信任 〈 把 钱 全 部 保留 ) 之 
间 进 行 决策 ， 如 果 选 择 信任 ， 那 么 投资 者 投资 的 钱 会 翻 倍 〈 通 常 是 三 倍 ) 给 到 被 信任 者 ; 
如 果 选 择 不 投资 ， 则 本 次 游戏 结束 ， 双 方 钱 数 不 变 。 然 后 由 被 信任 者 在 互惠 〈 把 一 半 的 钱 
返还 给 对 方 ) 和 不 互惠 〈 把 钱 全 部 保留 ) 之 间 进 行 决 策 。 如 果 选 择 互惠 ， 则 双方 最 后 的 获 
益 均 是 在 原始 金额 上 翻 倍 ;如 果 选 择 不 互惠 ， 则 被 信任 者 将 获得 三 倍 于 原始 金额 的 钱 数 ， 
而 投资 者 的 获 痊 为 零 。 通 过 该 实验 范式 可 以 将 信任 (trust) 量 化 为 投资 者 的 决策 ， 将 能 否 值 得 
被 他 人 信赖 (trustworthiness) 量 化 为 被 信任 者 的 决策 。Berg 等 (1995) 在 此 基础 上 修改 形成 了 
标准 信任 博弈 范式 。 与 经 典 信任 博弈 不 同 之 处 在 于 ， 在 标准 信任 博弈 范式 中 ， 投 资 者 和 被 
信任 者 可 以 自愿 决定 给 出 或 者 返还 给 对 方 多 少 钱 ， 而 不 是 全 部 给 出 或 者 全 部 保留 。 由 此 可 
以 测量 不 同 水 平 的 信任 和 互惠 。 采 用 这 种 范式 ，Berg 等 (1995) 发 现 即使 与 陌生 人 只 进行 一 
次 交易 ， 人 们 还 是 会 选择 信任 和 互惠 。 而 且 这 一 研究 结果 也 被 后 续 多 项 研究 证 实 (Declerck 
et al., 2013; Johnson & Mislin, 2011)。 也 有 研究 者 根据 特定 的 实验 目的 对 该 范式 进行 了 变 式 ， 


例如 在 被 试 决 策 前 允许 博弈 双方 进行 一 分 钟 的 语言 交流 ， 投 资 者 在 决策 前 会 收 到 被 信任 者 
承诺 返还 的 纸 条 ， 与 真实 的 或 者 计算 机 模拟 的 被 信任 者 博弈 ， 以 及 与 社会 地 位 水 平 不 同 的 
被 信任 者 博弈 等 等 。 以 此 来 探究 人 们 在 信任 博弈 中 做 出 信任 行为 的 影响 因素 (Ben-Ner et al., 
2011; Blue et al., 2020; Ma et al.,2015; Tzieropoulos, 2013). 

在 经 典 的 信任 博弈 中 ， 同 一 对 玩家 之 间 的 博弈 是 单 次 的 (single-round)， 但 是 现实 生活 
中 的 社会 交互 很 少 只 进行 一 次 。 因 此 ， 研 究 者 进一步 提出 了 重复 信任 博弈 范式 (Repeated 
Trust Game, RTG)， 即 同一 对 玩家 之 间 连 续 进行 多 次 信任 博弈 ， 玩 家 在 博弈 中 可 以 及 时 获得 
反馈 以 此 来 调整 下 一 次 的 决策 (图 1) 。 不 同 于 单 次 信任 博弈 ， 重 复 信任 博弈 中 决策 双方 
都 承担 对 方 可 能 不 会 把 钱 给 自己 的 风险 。 因 此 ， 不 仅 投资 者 做 出 的 信任 行为 会 受到 被 信任 
者 返还 金额 的 影响 ， 被 信任 者 也 需要 考虑 投资 者 的 行为 (在 单 次 信任 博弈 中 ， 被 信任 者 并 
不 会 考虑 投资 者 的 行为 ) 。 可 以 看 出 ， 在 重复 信任 博弈 中 玩家 的 行为 不 同 于 单 次 博弈 。 有 
研究 发 现 ， 为 了 让 投资 者 投资 更 多 的 金额 ， 在 重复 信任 博弈 中 被 信任 者 返还 的 金额 比 在 
次 博弈 中 多 (Cochard et al., 2004); 而 且 参 与 者 做 出 的 信任 和 互惠 的 决策 呈 单 调 递减 趋势 ， 
并 出 现 结尾 效应 (endgame effecb)， 即 在 博弈 接近 结尾 的 阶段 ， 参 与 者 选择 信任 以 及 互惠 的 
决策 骤然 下 降 (Anderhub et al., 2002; Keser, 2003) 。 与 单 次 信任 博弈 相 比 ， 重 复 信任 博弈 中 
涉及 到 学 习 、 推 理 以 及 策略 更 新 等 多 个 认 知 过 程 ， 这 为 研究 信任 形成 的 过 程 提供 了 一 种 更 
生态 的 实验 范式 ， 也 使 得 在 社会 交互 情境 下 引入 强化 学 习 等 计算 模型 成 为 了 可 能 (Anderhub 
et al., 2002; King-Casas et al., 2005)。 


图 1. 重复 信任 博弈 范式 的 示意 图 
3 计算 模型 在 信任 博弈 中 的 应 用 
3.1 计算 模型 概述 
计算 模型 是 用 抽象 的 数学 表达 式 来 刻画 人 类 社会 互动 中 学 习 以 及 决策 的 动态 变化 过 程 
(Hackel & Amodio, 2018)， 可 以 在 行为 或 者 脑 活动 的 基础 上 刻画 背后 隐藏 的 动态 变化 的 心理 
过 程 (Montague, 2018)。 计 算 模 型 不 仅 可 以 基于 行为 探讨 心理 现象 的 动态 变化 过 程 ， 还 可 以 
与 脑 影像 技术 结合 起 来 探讨 心理 现象 背后 的 脑 机 制 。 其 中 ， 在 当前 发 展 较 快 的 是 计算 模型 
与 脑 影像 技术 相 结合 的 方法 ， 例 如 : 基于 模型 (nodel-based) 的 功能 磁 共 振 成 像 技 术 
(functional Magnetic Resonance Imaging, fMRI). fMRI 技术 通过 衡量 BOLD(Blood Oxygen 
Level Dependenb) 信 号 的 变化 来 测量 被 实验 刺激 所 诱发 的 脑 活动 ， 即 某 个 脑 区 的 BOLD 信号 
增强 代表 该 脑 区 被 激活 。 为 研究 脑 和 行为 的 关系 ， 在 传统 的 fMRI 研究 中 ， 研 究 者 通常 将 


BOLD 信和 号 与 被 试 的 准确 率 、 反 应 时 等 行为 指标 建立 起 联系 ， 从 而 得 出 某 种 行为 倾向 与 脑 
功能 活动 之 间 的 关联 (Engelmann, 2010)。 而 基于 模型 的 fMRI(model-based fMRD 研 究 ， 可 以 
通过 模型 计算 将 一 些 不 能 从 实验 范式 中 直接 观察 到 的 内 部 变量 〈 例 如 奖赏 预期 偏差 、 学 习 
速率 ) 从 行为 数据 中 提取 出 来 ， 模 拟 产生 某 种 行为 现象 背后 的 复杂 认 知 过 程 ， 再 将 这 些 变 
量 或 者 模型 参数 与 实验 刺激 诱发 的 BOLD 信号 建立 起 联系 。 由 此 可 建立 行为 、 认 知 以 及 脑 
功能 活动 之 间 的 联系 ， 从 而 更 好 地 理解 行为 背后 的 脑 机 制 (Charpentier & O’Doherty, 2018; 
O'Doherty et al., 2007). 

当前 用 于 人 际 信任 研究 的 计算 模型 可 以 分 为 两 类 ， 即 基于 结果 的 模型 (outcome-based 
model) 和 基于 意图 的 模型 (intention-based model) (McCabe et al.,2003)。 基 于 结果 的 模型 认为 
在 信任 博弈 中 ， 人 们 对 于 意图 的 推断 不 重要 ， 重 要 的 是 个 体 从 互动 中 获得 的 反馈 结果 ， 即 
在 交易 中 人 们 主要 看 重 的 是 自己 的 收益 ;而 基于 意图 的 模型 则 强调 人 们 推断 对 方 的 意图 在 
一 博弈 决策 的 过 程 中 更 重要 ， 即 在 互动 中 人 们 依据 对 方 的 意图 作 相 应 的 决策 。 目 前 用 在 信任 
= 博弈 中 基于 反馈 结果 的 模型 主要 是 强化 学 习 模 型 (Cisler et al., 2015; Fouragnan, 2013; Radell 
et al.，2016)， 基 于 意图 的 模型 主要 是 贝 叶 斯 模型 (Jung et al., 2017; Moutoussis et al., 2014; 
Ray et al., 2009)。 已 有 的 使 用 强化 学 习 模型 探究 人 际 信任 的 研究 主要 解决 了 先 验 可 信和 度 如 
何 促进 信任 形成 的 问题 ， 而 贝 叶 斯 模型 在 人 际 信 任 研究 中 主要 解决 的 是 对 方 意图 的 推测 如 
何 促进 信任 形成 的 问题 。 由 于 信任 博弈 中 只 有 投资 者 行为 反映 人 们 的 信任 决策 ， 而 且 目 前 
使 用 计算 模型 探究 信任 博弈 中 信任 行为 相关 问题 时 ， 均 只 对 投资 者 行为 进行 分 析 ， 所 以 本 
文 从 投资 者 的 角度 分 析 信任 博弈 中 信任 行为 计算 模型 的 研究 结 


3.1.1 强化 学 习 模 型 

强化 学 习 模 型 (Reinforcement learning，RL) 是 最 常用 于 经 济 决策 中 心理 和 神经 机 制 建 模 
的 计算 模型 ， 用 来 解决 人 们 如 何 从 与 环境 多 次 互动 产生 的 反馈 中 进行 学 习 的 过 程 (Read 
Montague, 2018)。 该 模型 假设 个 体 与 外 界 环境 互动 的 过 程 是 马尔 可 夫 决 策 过 程 (Markov 
decision process, MDP)。 在 该 过 程 中 ， 包 括 环 境 状态 (State, S)， 个 体 行动 (Action, A) 以 及 将 
二 者 联系 起 来 的 状态 转移 概率 (Transition Probabilities, P) 和 奖赏 (Reward, R)。 其 中 状态 指 个 

体 当 时 所 处 的 位 置 。 状 态 决 定 了 个 体能 采取 的 行动 有 哪些 ， 状 态 转 移 概 率 表明 采取 某 种 行 
动 后 ， 从 一 种 状态 转变 到 另 一 种 状态 的 可 能 性 (Puterman, 1995)。 如 图 2 所 示 ， 在 t 时 刻 主 
体 (agent) 感知 当前 所 处 的 状态 S. 和 当前 所 获奖 赏 R,， 之 后 采取 行动 Al。 主 体 采 取 的 行动 会 
引发 trl 时 刻 环境 所 处 的 状态 Su 以 及 奖赏 值 Rt， 而 在 该 行动 下 环境 从 一 种 状态 转变 成 另 
一 种 状态 的 可 能 性 即 为 状态 转移 概率 P(Swi Si, A) (Fouragnan, 2013) 。 强 化 学 习 模 型 认为 
个 体 通过 习 得 当时 所 处 环境 状态 下 的 行为 与 反馈 结果 之 间 的 关系 ， 在 预期 偏差 (Prediction 
Error) 的 基础 上 更 新 不 同 状态 下 某 种 行为 的 期 望 效 用 值 ， 在 最 大 化 自己 奖赏 值 的 原则 下 做 出 
适应 性 行为 。 该 模型 中 ， 预 期 偏差 指 的 是 预期 值 和 实际 观测 值 之 间 的 差距 ， 学 习 速 率 反 映 


了 个 体 对 于 结果 反馈 赋予 的 权重 ， 用 来 衡量 个 体 更 新 期 望 效用 值 的 速度 ， 值 越 大 表明 个 体 
对 反馈 结果 赋予 的 权重 越 大 ， 更 新 期 望 效用 值 的 速度 越 快 (Claus & Boutilier, 1998). 
强化 学 习 依 据 是 否 存 在 先 验 模型 分 成 无 模型 (model-free) 和 基于 模型 (model-based) 两 类 
(Montague et al., 2012)。 无 模型 的 强化 学 习 理 论 认为 ， 个 体 依据 “ 试 错 ”(trial-and-error) 原 
则 进行 决策 ， 即 个 体 仅 会 依据 过 去 习 得 的 结果 进行 决策 ， 类 似 于 刺激 -反应 (stimuli- 
response) 的 习惯 化 abituaD 行 为 。 最 常用 的 模型 是 Rescorla-Wagner (RW) 模型 。 而 基于 
模型 的 强化 学 习 理论 认为 ， 个 体会 基于 反馈 形成 一 个 自身 对 外 部 环境 理解 的 内 部 模型 ， 该 
模型 是 个 体 对 外 部 世界 的 内 部 表征 ， 个 体 在 此 基础 上 完成 目标 导向 性 行为 (goal-directed) 
(Daw & Doya, 2006)。 二 者 的 主要 区 别 在 于 是 否 有 内 部 模型 ， 基 于 模型 的 强化 学 习 因 其 具有 
内 部 模型 ， 所 以 加 工 反 馈 结果 的 方式 更 灵活 ， 在 该 模型 下 的 个 体 适应 环境 变化 的 速度 更 快 。 
对 于 信任 博弈 而 言 ， 投 资 者 获得 的 反馈 信号 来 自 于 被 信任 者 是 否 返 还 金钱 或 者 返还 金 
钱 数 的 多 少 。 在 无 模型 的 强化 学 习 假 设 中 ， 不 管 外 界 有 没有 给 出 被 信任 者 是 否 值得 相信 的 
线索 ， 投 资 者 都 只 会 根据 观察 得 到 的 对 方 可 信 度 水 平 进行 决策 ， 而 在 基于 模型 的 强化 学 习 
中 ， 则 假设 投资 者 会 先 根据 对 方 名 誉 线索 对 被 信任 者 形成 一 个 是 否 可 信 的 先 验 期 望 ， 然 后 
这 种 先 验 期 望 更 新 后 续 的 预期 偏差 (Fouragnan, 2013). 
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FT 图 2. 强化 学 习 模型 框架 图 
资料 来 源 : Fouragnan. (2013) 


3.1.2 贝 叶 斯 模型 
强化 学 习 模型 是 基于 经 典 经 济 学 家 提出 的 个 体 是 完全 理性 的 假定 ， 但 违背 这 一 完全 理 
性 假定 的 发 现 不 断 被 报道 (Fehr & Schmidt, 2005)。 并 且 ， 强 化 学 习 模 型 假定 个 体 需 要 通 
马尔 可 夫 决 策 过 程 获取 环境 中 所 有 可 能 的 状态 ， 但 是 在 实际 社会 互动 中 ,个体 所 处 的 环境 
是 不 确定 的 、 是 部 分 可 观测 的 。 因 此 ， 研 究 者 提出 了 基于 部 分 可 观测 马尔 可 夫 决 策 过 程 
(partially observable MDP, POMDP) 的 贝 叶 斯 模型 (Bayesian model)。 该 模型 认为 个 体 是 有 限 
理性 的 。 在 社会 互动 前 ， 个 体 对 外 界 环境 所 处 状态 会 有 某 种 偏好 ， 这 种 偏好 即 个 体 的 先 验 
(prior beliefj 。 在 互动 过 程 中 ， 个 体会 基于 先 验 信念 和 环境 反馈 更 新 自己 的 先 验 信念 ， 
这 种 更 新 后 的 信念 即 个 体 的 后 验 信念 (posterior belief)。 个 体会 基于 后 验 信念 做 出 适应 性 的 
决策 行为 。 该 类 模型 一 般 采 用 概率 分 布 来 表示 信念 (Kaelbling et al., 1995)。 如 图 3 所 示 ， 用 
先 验 概率 分 布 Pr 表示 主体 (agent) 在 加 工 外 在 信息 前 的 先 验 信念 ， 用 后 验 概率 分 布 P 表 示 主 
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体 在 加 工 信 息 后 对 于 环境 所 处 状态 形成 的 后 验 信念 。 其 中 ，t 时刻 后 验 信 念 的 形成 是 基于 该 
时 刻下 的 先 验 信念 Pr，t 时 刻 互动 行为 观测 集合 0, 和 奖赏 集合 Ri 共同 作用 而 成 。 主 体 在 后 
验 信念 的 基础 上 采取 行动 Al。 主体 采取 的 行动 同样 会 引发 trl 时 刻 的 互动 行为 观测 集 Ou 
以 及 所 获 的 奖赏 集合 Re， 基 于 Ou 和 Re， 主体 的 先 验 以 及 后 验 信 念 会 得 到 进一步 的 更 新 ， 
进而 根据 新 的 后 验 信念 ， 在 H 时 刻 做 出 新 的 行动 。 贝 叶 斯 推断 模型 与 强化 学 习 模型 区 别 
在 于 ， 后 者 是 值 函 数 随时 间 进 行 迭代 ， 而 前 者 是 信念 分 布 〈 先 验 信 念 与 后 验 信念 ) 随 时间 
HEITIR (Friston et al.,2013)。 

当 马 尔 可 夫 决 策 过 程 中 的 状态 是 信念 状态 ， 同 时 这 些 信念 状态 是 不 确定 且 部 分 可 观测 
的 时 候 ， 可 以 用 部 分 可 观测 马尔 可 夫 决 策 过 程 来 表示 (Khalvati et al., 2019)。 研 究 者 在 此 基 
础 上 进一步 提出 了 交互 式 部 分 可 观测 马尔 可 夫 决 策 过 程 (Interactive POMDP, IPOMDP)， 在 

过 程 中 每 个 个 体 的 决策 过 程 都 是 标准 的 POMDP， 即 IPOMDP 相当 于 POMDP 的 合集 。 
重复 信任 博弈 可 以 看 成 是 两 个 个 体 的 IPOMDP， 双 方 所 处 的 状态 都 基于 对 方 所 做 的 决策 以 
及 自身 形成 的 关于 对 方 意图 的 模型 (Hula et al., 2015). 
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图 3. 贝 叶 斯 模型 框架 图 
资料 来 源 : Friston et al.,2013 
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贝 叶 斯 模型 主要 用 于 在 不 确定 情境 下 人 们 如 何 基于 意图 推断 进行 决策 的 研究 中 。 有 研 
究 者 从 信念 推断 入 手 ， 将 “心理 理论 (Theory of Mind)* 即 人 们 推断 自身 或 者 他 人 意图 的 能 
引入 到 贝 叶 斯 模型 中 (Ray et al.,2009)。 研 究 者 认为 人 们 在 博弈 任务 中 需要 心理 理论 对 玩家 
的 意图 以 及 行为 进行 策略 推理 (strategic reasoning)(Gonzalez & Chang, 2019; Ong et al., 
2019)。 在 信任 博弈 中 ， 心 理 理论 体现 在 博弈 双方 对 于 对 方 是 何 种 类 型 的 对 手 进行 推断 的 过 
程 ， 比 如 投资 者 会 推断 被 信任 者 是 何 种 类 型 ， 被 信任 者 会 推断 投资 者 是 何 种 类 型 ， 投 资 者 
推断 自身 在 被 信任 者 中 是 何 种 类 型 等 等 (Rusch & Gläscher, 2019)。 由 此 研究 者 根据 不 同 被 试 
在 推断 时 涉及 的 层次 将 人 们 分 成 不 同 思维 深度 的 被 试 ， 并 用 参数 衡量 个 体 的 思维 深度 (Ray 
et al., 2009; Xiang et al., 2012). Friston 等 (2013) 则 从 环境 / 认 知 的 不 确定 性 入 手 ， 将 最 小 自由 
能 原则 (free-energy principle) 引 入 到 贝 叶 斯 模型 中 ， 提 出 主观 推断 模型 (active inference)， 以 


此 来 模拟 人 们 在 信任 博弈 中 的 决策 行为 (Moutoussis et al., 2014)。 和 基于 心理 理论 的 贝 叶 斯 
模型 不 同 ， 主 观 推断 贝 叶 斯 模型 中 的 参数 衡量 的 是 个 体 对 自身 策略 的 精确 度 ， 而 不 是 策略 
涉及 的 思维 深度 。 


3.2 基于 强化 学 习 模型 的 信任 博弈 行为 学 和 影像 学 研究 
强化 学 习 模 型 能 够 帮助 研究 者 更 好 的 理解 ， 在 重复 信任 博弈 中 ， 投 资 者 如 何 基 于 环境 
音 息 做 决策 以 及 决策 背后 的 神经 机 制 。 环 境 信 息 包括 被 试 在 决策 前 获得 的 对 方 先 验 可 信 度 
言 息 和 在 互动 过 程 中 获得 的 对 方 的 可 信 度 信息 (Fareri et al., 2012, 2015; Fouragnan, 2013). 
3.2.1 行为 学 研究 
目前 行为 学 的 研究 主要 用 强化 学 习 模型 探究 健康 被 试 在 有 先 验 可 信和 度 下 ， 人 们 是 如 何 
做 出 信任 决策 的 。Chang 等 (2010) 通 过 提供 面孔 可 信 度 《高 /中 / 低 ) 的 先 验 名 誉 线索 ， 通 过 
= 对 比 三 种 基于 模型 的 强化 学 习 模型 研究 了 先 验 可 信 度 如 何 影响 信任 的 建立 。 这 三 种 强化 学 
= 习 模 型 是 基于 损失 规避 (Gain and Loss) 理 论 的 模型 (与 获得 收益 相 比 ， 人 们 更 愿意 规避 风 
险 ) 、 基 于 确认 偏差 (Confirmation Bias) 理 论 的 模型 (人 们 在 互动 中 ， 与 建议 与 反馈 结果 不 一 
致 的 信息 相 比 ， 人 们 对 建议 与 反馈 结果 一 致 的 信息 权重 更 大 )， 以 及 作者 提出 的 动态 信念 ; 
代 模 型 。 动 态 信 念 迭代 模型 认为 先 验 信息 在 信任 博弈 的 整个 过 程 中 都 对 被 试 的 信任 行为 有 
影响 ， 被 试 会 在 先 验 信息 的 基础 上 形成 对 方 多 大 可 能 性 互惠 的 信念 ， 然 后 该 信念 会 随 着 实 
际 的 经 历 迭 代 更 新 。 结 果 发 现 ， 动 态 信 念 迭 代 模 型 是 预测 先 验 可 信和 度 影 响 信 任 形成 过 程 的 
最 佳 模型 。 因 此 ， 研 究 者 认为 信任 是 基于 先 验 可 信和 度 的 信念 动态 迭代 而 建立 的 。 

在 另 一 项 研究 中 ， 被 试 首先 通过 掷 球 游 戏 (ball-tossing game) 学 习 到 被 信任 者 的 性 格 好 
© 坏 〈 好 /中 / 坏 )， 之 后 作为 投资 者 完成 重复 信任 博弈 (Fareri et al., 2012)。 作 者 使 用 了 考虑 
= 获 益 损失 理论 的 基于 模型 的 强化 学 习 模 型 。 结 果 发 现 ， 人 们 习 得 的 初始 社会 印象 会 与 后 续 
下 直接 互动 得 到 的 反馈 信号 相互 作用 ， 社 会 印象 会 影响 人 们 在 互动 过 程 中 的 信任 行为 ， 而 互 
动 中 产生 的 反馈 结果 也 会 反 过 来 会 影响 初始 社会 印象 ， 初 始 印象 会 在 重复 博弈 的 过 程 中 迭 
代 更 新 。Fareri 等 (2015) 在 此 基础 上 探究 了 与 被 试 亲密 关系 程度 不 同 的 对 手 如 何 影 响 其 重复 
信任 博弈 中 的 信任 行为 。 研 究 者 选取 了 朋友 、 陌 生 人 和 计算 机 对 手 ， 探 究 先 验 可 信 度 水 平 
高 低 对 信任 行为 的 影响 。 结 果 发 现 人 们 对 于 先 验 名 誉 越 高 的 对 手 ， 在 互动 过 程 中 的 预测 偏 
差 越 小 。 除 此 之 外 ，Radell 等 (2016) 也 采用 了 相同 的 实验 设计 以 及 RW 强化 学 习 模 型 探讨 
了 不 同 抑制 型 人 格 ( 在 社交 中 是 否 倾向 于 做 出 回避 行为 )》 对 不 同 可 信和 度 水 平 的 对 手 如 何 做 
信任 决策 。 结 果 发 现 ， 相 比 于 非 抑 制 型 被 试 ， 抑 制 型 被 试 会 对 中 等 可 信 度 水 平 对 手 做 出 的 
信任 行为 更 少 ， 这 是 因为 抑制 型 被 试 对 于 中 等 可 信 度 水 平 对 手 的 初始 信任 值 更 低 。 这 表明 
在 社交 中 倾向 于 采取 回避 行为 的 被 试 对 于 中 性 信息 或 者 模糊 信息 的 解释 更 消极 。 

除了 利用 强化 学 习 模型 来 研究 先 验 名 誉 线索 如 何 影响 信任 行为 外 ， 研 究 者 也 对 比 了 有 
无 先 验 信息 时 人 们 是 如 何 做 出 信任 决策 行为 的 。Fouragnan (2013) 提 出 投资 者 获得 对 手 先 验 
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可 信 度 的 方式 有 两 种 ， 除 了 提前 告知 对 手 先 验 可 信和 度 的 有 先 验方 式 之 外 ， 还 包括 投资 者 与 
对 手 直接 互动 的 无 先 验 信息 的 方式 。 研 究 者 通过 对 比 无 模型 和 基于 模型 的 强化 学 习 模型 ， 
探究 了 在 有 无 先 验 信息 条 件 下 ， 被 试 在 面 对 可 信 度 水 平 高 / 低 的 对 手 做 出 信任 行为 背后 的 心 
理 机 制 。 该 研究 发 现 信念 适应 模型 是 解释 投资 者 在 重复 信任 博弈 中 信任 行为 的 最 佳 模型 。 
信念 适应 模型 认为 在 重复 信任 博弈 中 ， 先 验 可 信 度 信息 作为 一 种 社会 信号 ， 不 仅 会 影响 人 
们 的 初始 决策 值 ， 还 会 基于 互惠 反馈 的 经 验 影响 人 们 后 续 友 代 的 决策 函数 。 人 们 基于 先 验 
可 信和 度 信息 形成 一 个 关于 对 方 是 否 值得 相信 的 对 方 可 信和 度 水 平 的 信念 (Trustworthiness belief, 
TW)。 这 种 关于 对 方 可 信 度 水 平 的 信念 同 金钱 反馈 结果 一 样 作为 奖励 (bonus) 在 效用 函数 中 
进行 迭代 。 研 究 发 现 ， 人 们 在 有 无 先 验 可 信 度 信息 的 两 种 方式 下 做 信任 决策 时 ， 首 先 在 金 
钱 反馈 结果 的 基础 上 形成 关于 对 手 是 否 可 信 的 信念 ， 然 后 根据 这 一 信念 调整 自身 的 决策 ， 
进而 做 出 适应 性 的 投资 行为 。 和 无 先 验 可 信 度 信息 不 同 的 是 ， 有 先 验 的 条 件 会 改变 信任 者 
对 于 对 手 是 否 可 信 的 初始 预期 值 (Fouragnan, 2013)。 也 有 研究 使 用 强化 学 习 模 型 发 现在 重复 
信任 博弈 中 ， 人 们 做 出 的 信任 行为 是 博弈 双方 相互 学 习 的 过 程 ， 在 这 个 过 程 中 ， 人 们 基于 
多 次 互动 的 反馈 结果 进行 决策 ， 而 且 对 于 多 次 互动 中 消极 的 结果 反应 更 敏感 ， 即 面 对 消 极 
反馈 结果 时 ， 人 们 在 下 一 次 博弈 中 会 快速 调整 自身 的 决策 ， 从 而 做 出 适应 性 的 行为 (Haiyan，, 
2018)。 

总 之 ， 行 为 学 研究 发 现在 重复 信任 博弈 中 ， 信 任 是 一 个 不 断 学 习 的 过 程 ， 是 人 们 通过 
评估 多 次 互动 中 得 到 的 结果 习 得 对 方 名 誉 水 平 然后 决定 是 否 相 信 对 方 的 过 程 ， 使 用 强化 学 
习 理 论 可 以 揭示 信任 的 动态 建立 过 程 。 
3.2.2 影像 学 研究 

采用 功能 磁 共 振 成 像 技术 ， 研 究 者 进一步 探究 了 先 验 可 信 度 促进 信任 形成 的 神经 机 制 。 
Fareri 等 (2012) 探 究 了 被 试 在 决策 前 获得 对 方 的 先 验 可 信 度 对 其 信任 行为 以 及 与 奖赏 相关 的 
O 脑 功能 活动 的 影响 。 在 该 研究 中 ， 被 试 先 与 电脑 模拟 的 三 种 不 同 信任 水 平 的 对 手 《 高 /中 / 

低 ) 玩 掷 球 游 戏 ， 以 习 得 对 手 是 否 可 信 的 初始 印象 。 在 接 下 来 的 重复 信任 博弈 中 ， 被 试 扮 

演 投 资 者 的 角色 分 别 与 这 些 对 手 进行 博弈 。 实 际 上 对 手 的 行为 是 随机 的 ， 与 掷 球 游戏 中 的 

行为 无 关 。 研 究 者 采用 了 RW 强化 学 习 模型 分 析 了 重复 信任 博弈 中 被 试 的 行为 及 其 与 脑 活 动 
的 关联 ， 发 现 与 不 一 致 情况 相 比 ， 当 被 试 所 经 历 的 对 手 与 先 验 印象 一 致 时 被 试 更 新 信念 世 
速率 更 快 ， 在 面 对 积 极 / 消 极 反 馈 结果 时 ， 与 中 性 反馈 结果 相 比 被 试 的 纹 状 体 和 前 扣 带 回 的 
激活 程度 增加 ， 而 且 模 型 中 的 学 习 速 率 参数 与 这 些 脑 区 的 BOLD 信号 变化 显著 相关 。 这 表 
明 ， 奖 赏 回路 脑 区 的 BOLD 信号 反映 了 在 行为 水 平 上 用 来 更 新 行为 的 预期 偏差 信号 ， 说 明 
这 些 脑 区 负责 获 益 / 受 损 背景 下 被 试 通过 预期 偏差 更 新 信念 的 过 程 。 这 些 结果 表明 ， 人 们 从 
直接 社会 互动 中 习 得 的 初始 印象 会 通过 强化 学 习 机 制 在 一 致 信息 的 基础 上 ， 得 到 不 断 的 更 
新 。Fouragnan (2013) 通 过 对 比 被 试 在 有 无 先 验 可 信 度 两 种 条 件 下 的 信任 决策 及 相应 激活 的 
讽 区 ， 探 究 了 先 验 可 信 度 影响 人 们 信任 决策 的 神经 基础 。 结 果 发 现 ， 纹 状 体 激活 与 强化 学 
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习 模 型 对 行为 的 估计 只 有 在 无 先 验 可 信 度 条 件 下 才 显 著 相 关 ， 先 验 可 信 度 会 打破 这 种 相关 
性 ;在 有 先 验 可 信 度 条 件 下 ， 被 试 面 对 对 手 信 任 违规 的 行为 时 出 现 的 纹 状 体 负 激活 与 被 试 
在 强化 学 习 模型 中 的 学 习 速 率 相 关 ， 但 是 在 无 先 验 可 信 度 条 件 下 却 不 相关 ， 并 且 被 试 会 持 
续 依 赖 先 验 信息 即使 经 验 与 先 验 不 相符 时 。 而 且 ， 和 无 先 验 条 件 相 比 ， 在 有 先 验 条 件 下 合 
作 型 对 手 做 出 信任 违规 行为 时 ， 被 试 的 尾 状 核 负 激活 更 强 。 先 验 信 息 会 增强 纹 状 体 和 腹 外 
侧 前 额 皮 层 (ventrolateral prefrontal cortex) 之 间 的 联系 ， 进 而 调节 被 试 对 违规 行为 的 容忍 度 。 
这 种 容忍 度 与 被 试 的 报复 率 呈 负 相 关 。 同 时 先 验 可 信 度 也 会 影响 被 试 的 初始 信任 决策 ， 而 
这 反映 在 前 额 叶 皮层 的 激活 上 。 除 此 之 外 ， Fareri 等 (2015) 通 过 在 强化 学 习 模型 中 加 入 了 
社会 价值 奖赏 信号 探究 了 被 试 与 对 手 的 亲密 程度 影响 其 信任 行为 的 神经 基础 。 被 试 在 信任 
博弈 中 扮演 投资 者 的 和 角色， 分别 与 朋友 、 陌 生 人 和 计算 机 进行 信任 博弈 。 该 模型 认为 被 试 
从 互动 中 获得 的 反馈 结果 除了 金钱 还 有 社会 价值 奖赏 信号 ， 这 种 社会 价值 奖赏 信号 用 被 试 
对 于 对 手 是 否 可 信 的 初始 感知 评分 来 表示 。 研 究 者 将 这 种 社会 奖赏 信号 加 入 RL 的 值 函数 
中 。 结 果 表 明 ， 被 试 在 亲密 度 的 基础 上 从 反馈 结果 中 获得 社会 价值 奖赏 信号 ， 这 种 社会 价 
值 奖赏 信号 与 腹 侧 纹 状 体 、 内 侧 前 额 叶 皮层 (medial prefrontal cortex) 激 活 程 度 显著 相关 。 这 
表明 在 重复 社会 互动 中 ， 人 们 在 社会 价值 奖赏 信号 的 基础 上 进行 信任 决策 。 
这 些 影像 学 研究 不 仅 验证 了 行为 学 计算 模型 研究 的 结果 ， 补 充 发 现 了 先 验 可 信 度 会 影 
响 被 试 的 初始 信任 决策 ， 还 发 现 了 信任 动态 迭代 的 脑 基础 。 其 中 ， 奖 赏 回路 中 的 纹 状 体 和 
前 扣 带 回 反 映 了 人 们 通过 预期 偏差 更 新 信念 的 过 程 ， 先 验 可 信和 度 对 被 试 初始 信任 决策 的 影 
响 反 映 在 前 额 叶 皮 层 的 激活 上 ; 纹 状 体 与 前 额 叶 皮层 之 间 的 动态 联系 反映 了 被 试 在 博弈 过 
程 中 对 自身 信任 行为 的 调节 。 
3.3 基于 贝 叶 斯 模型 的 信任 博弈 行为 学 和 影像 学 研究 
贝 叶 斯 模型 在 信任 博弈 中 的 应 用 集中 于 理解 在 重复 信任 博弈 中 投资 者 如 何 基于 意 
测 做 出 信任 决策 及 其 背后 的 神经 机 制 。 
3.3.1 行为 学 研究 
Ray 等 (2009) 将 心理 理论 引入 贝 叶 斯 模型 ， 在 基于 贝 叶 斯 理论 的 IPOMDP 框架 下 对 
复 信 任 博 弈 中 信任 行为 建立 了 一 个 信念 层次 模型 (belief hierarchy model) 。 该 模型 认为 ， 玩 
家 知道 自身 是 合作 /不 合作 的 类 型 ， 但 并 不 知晓 对 手 玩家 的 类 型 ， 所 以 是 不 完全 信息 的 动态 
博弈 。 玩 家 关于 对 手 是 否 可 信 的 先 验 信念 会 在 观察 到 的 对 方 行为 的 基础 上 以 贝 叶 斯 方式 进 
行 迭代 更 新 。 玩 家 本 身 的 行为 也 会 影响 其 对 于 对 手 是 否 可 信 的 信念 。 在 该 过 程 中 会 
系列 有 限 的 信念 层次 : 投资 者 认为 被 信任 者 是 什么 类 型 的 人 ; 被 信任 者 认为 投资 者 眼中 的 
自己 是 什么 样 的 人 等 等 。 如 果 玩 家 在 多 次 互动 结果 的 基础 上 得 出 对 方 是 否 可 和信， 博弈 就 会 
达到 一 个 主观 贝 叶 斯 纳什 均衡 (Bayes-Nash Equilibrium, BNE) 。 该 模型 的 创新 点 是 在 
IPOMDP 框架 下 的 贝 叶 斯 模型 中 引入 了 策略 思维 水 平 ， 以 此 用 来 解释 社会 效用 、 策 略 水 平 
以 及 先 验 信念 对 人 们 信任 行为 的 影响 。 通 过 模型 反 转 (model inversion)， 可 以 根据 被 试 在 实 
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验 中 动态 的 信任 行为 将 被 试 分 成 策略 思维 水 平 (strategic thinking) 高 低 的 不 同类 型 的 被 信任 
者 ， 策 略 思 维 水 平 高 的 被 试 投 资 的 次 数 会 更 高 。 这 一 模型 为 研究 人 际 信 任 中 的 个 体 差 异 提 
供 了 新 的 思路 。 

Hula 等 (2015) 使 用 部 分 可 观测 蒙特 卡 罗 规 划 (partially observable Monte Carlo planning, 
POMCP) 算 法 探究 了 在 IPOMDP 框架 下 的 重复 信任 博弈 。 结 果 发 现 ， 投 资 者 在 博弈 10 次 左 
右 就 会 形成 关于 对 手 是 否 可 信 的 信念 ， 进 而 会 做 出 稳定 的 投资 行为 。 所 以 ， 根 据 投资 者 在 
前 10 次 博弈 中 的 行为 便 可 以 推断 出 其 内 部 主观 模型 中 的 最 优 参数 值 ， 这 些 博 弈 中 的 行为 可 
以 确保 是 投资 者 在 其 自身 内 部 模型 下 做 出 的 。 使 用 该 算法 还 可 以 通过 模型 反 转 推断 出 被 试 
揣测 他 人 意图 的 能 

Friston 等 (2013) 在 基于 贝 叶 斯 理论 的 IPOMDP 框架 下 对 人 们 在 社会 互动 中 的 决策 行为 
建立 了 一 个 主观 推断 (active inference) 贝 叶 斯 模型 。 该 模型 引入 了 人 们 对 先 验 信念 的 准确 度 
参数 ， 对 决策 行为 进行 建 模 ， 提 出 使 用 最 小 自由 能 的 原则 (free-energy principle) 更 新 后 验 信 
念 。 Moutoussis 等 (2014) 把 这 种 模型 用 在 信任 博弈 中 ， 将 效用 函数 (utility functions)、 先 验 
信念 和 结果 结合 起 来 ， 建 立 了 随 博弈 次 数 的 增加 ， 投 资 者 对 他 人 建立 信任 的 演化 过 程 ， 并 
得 出 投资 者 在 与 对 方 博弈 10 次 左右 时 ， 就 会 形成 对 方 是 否 值得 可 信 的 信念 。Schwartenbeck 
等 (2015) 通 过 实验 发 现 ， 与 最 大 化 效用 的 决策 理论 相 比 ， 主 观 推断 下 的 决策 理论 能 更 好 地 
预测 人 们 的 经 济 决策 行为 。 

研究 者 也 尝试 将 贝 叶 斯 模型 应 用 到 实际 问题 中 。Jung 等 (2017) 构 建 了 医疗 情境 中 的 信 
任 博弈 来 研究 安奈 剂 镇 痛 效 应 。 在 该 研究 中 ， 研 究 者 对 安 感 剂 镇 痛 效 应 建立 了 贝 叶 斯 框架 
即将 疼痛 强度 和 疼痛 评分 建立 似 然 关 系 ， 疼 痛 评 分 对 应 后 验 分 布 ， 安 慰 剂 镇 痛 效 应 是 上 行 
感觉 信号 与 下 行 疼痛 预测 之 间 的 差距 。 由 此 ， 人 们 对 疼痛 等 级 的 主观 评定 可 以 基于 贝 叶 斯 
模型 中 后 验 分 布 推断 所 得 。 通 过 比较 贝 叶 斯 模型 与 线性 回归 模型 ， 研 究 者 发 现 先 验 期 望 会 
影响 人 们 对 疼痛 的 感知 ， 而 且 贝 叶 斯 模型 可 以 预测 人 们 在 医疗 信任 博弈 中 的 疼痛 等 级 评定 
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总 之 ， 基 于 贝 叶 斯 推断 的 行为 学 研究 得 出 人 们 在 重复 信任 博弈 中 ， 在 与 对 方 博弈 十 次 
左右 时 就 可 以 形成 对 方 是 否 可 信和 的 信念 ， 然 后 在 此 基础 上 做 出 决策 。 不 同 的 人 推断 他 人 意 
图 的 能 力 不 同 ， 即 在 博弈 过 程 中 的 思维 水 平 深 度 不 同 。 
3.3.2 影像 学 研究 

Xiang 等 (2012) 采 用 功能 磁 共振 成 像 技术 探究 推断 他 人 意图 的 能 力 能 否 作为 人 们 在 信任 
博弈 中 信任 行为 发 生 偏 差 的 客观 生物 标记 物 (objective biomarkers)。 研 究 者 采用 基于 心理 理 
论 的 贝 叶 斯 模型 ， 用 模型 参数 表征 被 试 思维 加 工 的 深度 ， 从 而 根据 思维 深度 将 被 试 分 成 高 / 
中 / 低 三 组 。 结 果 发 现 ， 低 思维 深度 被 试 的 纹 状 体 激活 程度 要 强 于 高 思维 深度 以 及 中 等 思维 
深度 的 被 试 ， 而 在 高 思维 深度 被 试 中 与 心理 理论 相关 的 里 顶 结合 区 (Temporoparietal 
Junction, TPJ) 激 活 程度 要 强 于 中 等 以 及 低 思维 深度 组 被 试 。 这 表明 ， 低 思维 深度 的 被 试 对 
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反馈 结果 更 敏感 ， 并 主要 根据 反馈 结果 调整 自身 的 行为 ， 而 高 思维 深度 被 试 主要 通过 推断 
他 人 意图 进行 决策 。Nihonsugi 等 (2015) 使 用 fMRI 和 经 颅 直流 电 刺 激 (transcranial 
directcurrent stimulation，tDCS) 技 术 并 结合 计算 模型 ， 探 究 了 推断 他 人 意图 和 反馈 结果 对 人 
们 信任 决策 行为 的 影响 在 神经 机 制 层面 是 否 是 两 个 分 离 的 系统 。 研 究 者 将 愧 次 厌恶 (guilt 
aversion)、 不 公平 厌恶 (inequity aversion) 与 强化 学 习 模 型 中 的 效用 函数 结合 起 来 建立 了 模型 。 
将 该 模型 中 的 愧 疯 敏 感性 参数 和 不 公平 敏感 性 参数 与 影像 结果 联系 起 来 发 现 ， 右 背 外 侧 前 
额 叶 皮质 (right dorsolateral prefrontal cortex, DLPFC) 的 激活 与 基于 意图 的 经 济 决策 行为 有 关 ， 
腹 侧 纹 状 体 和 杏仁 核 的 激活 与 基于 反馈 的 经 济 决 策 行为 有 关 。 而 且 对 DLPFC 的 选择 性 刺激 
会 增强 基于 意图 的 决策 行为 。 这 些 结果 表明 ， 右 侧 DLPFC 在 加 工 实施 基于 意图 的 合作 行为 
中 起 重要 作用 。 综 合 其 研究 发 现 ，Nihonsugi 等 (2015) 提 出 在 重复 信任 博弈 中 主要 包括 推断 
他 人 意图 和 基于 反馈 结果 做 决策 的 两 个 分 离 的 神经 系统 。 人 们 通过 多 次 互动 得 到 的 奖赏 信 
号 ( 纹 状 体 的 激活 ) ， 推 断 习 得 对 方 的 可 信和 度 水 平 (DLPFC 和 扣 带 回 的 激活 ) ， 然 后 在 此 
基础 上 做 出 适应 性 行为 (这 些 脑 区 的 BOLD 信和 号 与 模型 中 的 预测 偏差 显著 相关 ) ; 而且 先 
验 可 信 度 会 加 强 这 两 个 系统 之 间 的 联系 。 

这 些 影像 学 研究 ， 不 仅 发 现 了 不 同 思维 深度 个 体 进行 信任 决策 时 个 体 差 异 的 神经 基础 ， 
而 且 发 现在 重复 信任 博弈 中 ， 存 在 推断 他 人 意图 和 基于 反馈 结果 做 决策 的 两 个 分 离 的 神经 
系统 。 

4 不 足 与 展望 

综 上 所 述 ， 采 用 基于 计算 模型 的 行为 学 和 脑 影 像 学 研究 方法 ， 研 究 者 从 心理 和 神经 机 
制 层 面 发 现 了 先 验 可 信 度 和 对 方 意图 的 推测 是 如 何 促进 信任 形成 的 ， 对 “信任 是 如 何 形 成 
的 ”这 一 问题 获得 了 更 深入 的 理解 。 但 还 存在 一 些 不 足 和 值得 进一步 探索 的 方向 。 

4.1 计算 模型 的 发 展 

© 目前 应 用 在 信任 博弈 中 的 计算 模型 主要 包括 强化 学 习 模 型 和 贝 叶 斯 模型 。 强 化 学 习 模 
型 是 基于 个 体 完 全 理性 的 假设 ， 认 为 个 体 在 当前 预期 偏差 的 基础 上 更 新 对 行为 值 的 期 望 ， 
并 用 学 习 率 衡量 个 体 对 反馈 结果 的 权重 大 小 (学 习 率 具有 个 体 差异 性 ) 。 该 模型 自 提出 后 
被 广泛 应 用 在 各 种 学 习 任 务 中 ， 并 且 研 究 者 将 其 与 脑 影像 技术 结合 在 探究 大 脑 的 奖赏 功能 
方面 获得 了 许多 重要 发 现 (Jaafra et al., 2019; Lee et al., 2012)。 但 是 强化 学 习 模型 的 客观 自 适 
应 的 学 习 过 程 很 难 应 用 在 实际 生活 中 ， 因 为 在 实际 生活 中 个 体 所 面 对 的 情景 是 不 确定 的 ， 
同时 行为 的 效用 值 是 未 知 的 ， 需 要 个 体 对 其 进行 推 新 (Mathys et al., 2011). 

而 贝 叶 斯 模型 基于 个 体 有 限 理性 的 假设 ， 结 合 贝 叶 斯 理论 ， 利 用 条 件 概率 将 个 体 的 信 
念 与 所 作 的 行为 建立 起 联系 ， 可 以 很 好 地 刻画 个 体 在 面 对 不 确定 情景 下 的 决策 行为 (Mathys 
et al., 2011)。 其 中 ， 主 观 推测 模型 已 经 被 尝试 应 用 于 不 同 领域 的 研究 中 (Friston et al., 2016; 
Parr & Friston, 2017; Smith et al., 2019) 。 研 究 者 通过 数据 模拟 发 现 了 影响 不 同行 为 的 特定 参 
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数 ， 如 策略 深度 、 决 策 不 确定 性 、 先 验 信念 等 等 (Smith et al., 2019)。 但 目前 仅 有 一 项 研究 
将 其 用 到 信任 博弈 中 (Moutoussis et al., 2014)。 未 来 需要 更 多 研究 应 用 该 模型 来 模拟 信任 形 
成 过 程 ， 确 定 影响 信任 形成 的 关键 参数 ， 并 设计 功能 影像 任务 来 检验 关键 参数 的 神经 基础 
从 而 确定 信任 形成 个 体 差异 的 心理 机 制 和 神经 基础 。 
近年 来 研究 者 也 在 试图 发 展 其 它 类 型 的 计算 模型 。 比 如 ，Mathys 等 提出 了 分 层 高 斯 过 
滤 模 型 (Hierarchical Gaussian Filter, HGF)。 该 模型 将 贝 叶 斯 其 于 概率 论 刻 画 不 确定 性 的 方式 
与 强化 学 习 模 型 中 刻画 个 体 差 异 的 更 新 方式 结合 起 来 。 该 模型 的 更 新 方程 与 强化 学 习 模 型 
的 类 似 〈 以 预期 误差 驱动 )， 不 同 之 处 在 于 分 层 高 斯 过 滤 模 型 是 以 个 体 对 策略 的 精确 度 的 
权衡 作为 学 习 率 ， 以 此 来 刻画 人 们 如 何在 环境 以 及 感知 的 不 确定 下 进行 决策 的 过 程 ， 而 且 
有 研究 已 将 该 模型 成 功用 在 了 需要 推断 他 人 意图 的 社会 交换 的 情景 中 (Diaconescu et al., 
2014)。 除 此 之 外 ， 有 研究 将 强化 学 习 模 型 中 的 效用 函数 与 贝 叶 斯 模型 中 的 用 概率 刻画 不 确 
T= 定性 结合 起 来 提出 了 Fehr-Schmidt 不 公平 厌恶 模型 Fehr-Schmidt inequality aversion model, 
S FS modeD)。 在 该 模型 中 既 有 刻画 个 体 差异 的 学 习 速 率 参数 、 不 公平 厌恶 参数 ， 也 有 个 体 推 
断 他 人 意图 涉及 的 思维 深度 参数 、 提 前 计划 步骤 多 少 的 参数 ， 可 以 全 面 的 模拟 人 们 在 信任 
博弈 中 的 决策 行为 。 研 究 者 通过 比较 不 同 干预 被 试 组 〈 是 否 接受 高 质量 早期 教育 ) 在 模型 
中 的 参数 ， 结 果 发 现 相 比 于 未 接受 过 高 质量 早期 教育 的 被 试 ， 接 受过 的 被 试 在 信任 博弈 等 
社会 互动 中 决策 时 会 计划 更 多 的 步骤 。 这 表明 高 质量 的 早期 教育 会 对 人 们 的 社会 决策 行为 
有 长 远 有 益 的 影响 (Luo et al., 2018). 
未 来 可 以 根据 研究 目的 ， 灵 活 地 选择 和 发 展 各 类 模型 用 于 信任 博弈 研究 中 ， 以 期 加 深 
对 信任 动态 迭代 过 程 的 理解 ， 并 促进 对 信任 博弈 中 个 体 差异 的 心理 和 神经 机 制 的 理解 。 
© 42 基于 计算 模型 的 脑 -行为 因果 关系 研究 
= 虽然 基于 计算 模型 的 脑 影像 研究 ， 可 以 从 时 间 和 空间 两 个 维度 来 刻画 大 脑 在 执行 某 个 
© 特定 认 知 过 程 时 神经 活动 随时 间 的 动态 变化 ， 将 认 知 和 脑 功能 建立 起 联系 ， 解 决 大 脑 如 何 
执行 某 一 认 知 功能 的 问题 ， 但 是 当前 研究 仍然 不 能 回答 行为 与 脑 之 间 的 因果 关系 。 对 脑 损 
伤 患者 的 异常 决策 行为 的 计算 模型 研究 (Gu et al., 2015)， 在 推测 特定 脑 区 在 认 知 过 程 中 的 
独特 作用 具有 重要 意义 ， 但 这 类 研究 不 易 被 重复 。 以 经 颅 磁 刺激 (Transcranial Magnetic 
Stimulation, TMS) 和 tDCS 技术 为 代表 的 非 侵入 性 脑 刺激 技术 的 出 现 ， 为 探究 脑 与 决策 行为 
的 因果 关系 提供 了 可 能 ( 荣 悦 形 等 , 2019)。 例 如 ， Zheng 等 (2017) 使 用 tDCS 增强 右 侧 
DLPFC 的 兴奋 性 ， 发 现 并 不 会 影响 人 们 在 信任 博弈 中 做 出 的 信任 行为 。 目 前 仅 有 一 项 研究 
使 用 了 基于 模型 的 fMRI 和 tDCS 技术 ， 发 现 人 们 在 作 信任 决策 时 推断 他 人 意图 和 加 工 反馈 
结果 是 基于 两 个 分 离 的 神经 系统 (Nihonsugi et al., 2015)。 未 来 需要 更 多 的 研究 将 非 侵入 性 脑 
刺激 技术 、fMRI 技 术 和 计算 模型 相 结合 ， 在 信任 博弈 的 框架 下 ， 进 一 步 揭示 信任 形成 过 程 
背后 的 心理 机 制 与 其 神经 基础 之 间 的 因果 关系 。 
4.3 精神 疾病 患者 的 人 际 信任 研究 
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近年 来 ， 计 算 神 经 科学 的 发 展 促进 了 计算 模型 在 临床 研究 中 的 应 用 ， 并 由 此 发 展 出 一 


个 新 的 研究 领域 ， 即 计算 精 ? 


JÄ =Æ (computational psychiatry)(Huys et al., 2011; Montague et 


al., 2012; Stephan & Mathys, 2014) 。 计 算 精 神 病 学 采用 基于 模型 的 定量 指标 来 推测 异常 行为 


和 神经 活动 背后 隐藏 的 原因 ， 从 而 解释 精 ? 


申 病理 (Friston et al., 2014). 


以 往 研 究 发 现 精神 疾病 患者 在 信任 博弈 中 会 做 出 异常 的 信任 行为 。 例 如 边缘 性 人 格 障 


但 患者 (Borderline Personality Disorder, BPD) fll H MJE (Autism Spectrum Disorder , ASD) 儿 童 


会 表现 出 更 少 的 信任 行为 King-Casas. et al., 2008; Knoch et al., 2009; Maurer et al., 2018), 以 


及 青少年 抑郁 症 患者 会 表现 出 过 度 的 信任 行为 而 成 年 抑郁 症 患者 则 表现 4 


更 少 的 信任 行为 


(Mellick et al.,2019; Wehebrink et al., 2018)。 但 是 这 些 研究 只 是 发 现 了 患者 信任 行为 异常 ， 


对 于 患者 为 何 做 出 异常 信任 决策 的 心得 
病 患者 为 研究 对 象 的 信任 博弈 计算 模型 


缘 性 人 格 障碍 患者 作为 投资 


进行 博弈 时 会 表现 出 不 同 于 健康 被 试 作为 投资 者 的 ， 
分 布 。 该 研究 表明 这 种 基于 心理 理论 的 贝 叶 斯 模型 得 出 的 思维 深度 所 对 应 的 神经 反应 类 型 


过 程 和 神经 机 制 仍 不 清楚 。 目 前 仅 有 一 项 以 精神 疾 
研究 。 该 研究 采用 心理 理论 的 贝 叶 斯 模型 发 现 ， 边 


思维 深度 


可 以 作为 识别 异常 信任 行为 的 客观 标记 物 (Xiang et al., 2012)。 未 来 的 研究 可 以 从 计算 精神 
病 学 视角 下 深入 研究 精神 疾病 患者 人 际 信任 过 程 建立 的 异常 之 处 。 将 信任 博弈 、 计 算 模型 


以 及 神经 影像 技术 结合 起 来 的 


研究 方法 ， 不 仅 可 以 加 深 我 们 了 
的 理解 (Sanfey 2007)， 也 为 研究 精神 障碍 患 


者 社会 功能 障碍 提供 了 新 的 视角 。 


E 常 状态 下 人 们 信任 形成 过 程 
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Abstract: Interpersonal trust has permeated all aspects of social exchange. It is the foundation 
of promoting and maintaining social corporation. Using the trust game paradigm, previous studies 
have investigated the theoretical models, biological bases and influential factors of interpersonal 
trust. In recent years, computational modeling has been increasingly applied to the research field 
of interpersonal trust. It enables researchers to explore the psychological mechanisms underlying 
interpersonal trust. Combining computational modeling with neuroimaging technology can deepen 
our understanding of the brain mechanisms of trust behaviors. The current application of the 
computational modeling to the trust game primarily aimed to answer the question of "how trust is 
formed”. Future researchers could further combine advanced computational modeling techniques 
with non-invasive brain stimulation technologies to uncover the unique process of trust formation 
among patients with mental disorders. By doing so, we hope to gain a better understanding about 
the differences in the psychological and neural mechanisms of trust formation between healthy 
population and patients with mental disorders. 
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